#AI 浏览器自动化

sitin
1天前
GitHub 项目——playwright-mcp,它是微软开源的一个 浏览器自动化 MCP,能让 AI 直接操作浏览器,就像真人一样。 1.它到底能干嘛? 举个例子: 我在 Claude Code 里随口输入一句话 它真的能自己打开浏览器 → 搜索 → 找到目标 → 自动评论。 而且我没给特别详细的路径指令,全是口语化描述,它照样能完成。 这就是它厉害的地方:AI 能听懂人话,自己去点网页、填表、评论。 2.怎么安装? 安装很简单: 在 Claude Code、CodeX 之类的 MCP 客户端都能用。 甚至你直接对 Claude 说一句“帮我安装 playwright MCP”,它会自动帮你装好。 装完后输入 /mcp 检查一下就行。 3.它为什么这么牛?(原理揭秘) 以前 AI 控制浏览器的方式是 截图 + 视觉模型,缺点是:慢、耗资源、还贵。 但 playwright-mcp 用的是另一套逻辑: Playwright:微软开发的现代浏览器自动化库,可以点、输、拖拽、拦截请求,几乎能模拟人类所有操作。 Accessibility Tree:相当于网页的“语义化副本”,里面是纯文本的结构化信息,比如“这里有一个搜索按钮”“那里有个输入框写着请输入关键词”。 AI 拿到的就是这个树,而不是图片。这样速度更快,成本更低,准确率更高。 你可以把它理解成一个团队: Playwright = 操作员,能点能输,但不懂逻辑。 Accessibility Tree = 操作员的口头汇报,“屏幕上有个搜索框,有个提交按钮”。 AI 大模型 = 盲人专家,虽然看不见,但能完全理解文字描述,然后下指令:“在搜索框输入内容,点搜索”。 这样一套配合,就让浏览器自动化变得又快又准。 4.总结 playwright-mcp = AI 和真实互联网之间的桥梁。 不用截图,不靠视觉,直接基于语义来操作网页。 简单、精准、低延迟,开源免费,还能直接用在 Claude Code 等环境里。